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基于 差异 性 采样 的 流 数据 聚 类 算法 
印 云 飞 ， 孙 梦 冉 " 


(辽宁 工程 技术 大 学 软件 学 院 , 辽宁 葫芦 岛 125105) 


摘 要 : 针对 传统 聚 类 算法 对 流 数 据 进行 聚 类 时 面临 时 间 复 杂 度 高 ， 存 储 空间 需求 大 以 及 准确 度 较 低 的 问题 ， 提 出 一 
种 基于 差异 性 采样 的 流 数据 聚 类 算法 。 首 先 利用 差异 性 采样 法 对 流 数据 进行 采样 并 用 样本 点 构造 核 矩 阵 ， 然 后 利用 核 
模糊 C 均值 肢 类 算法 对 核 答 阵 中 的 点 进行 聚 类 得 到 一 个 带 有 标记 的 样本 核 答 阵 ， 最 后 利用 带 有 标记 的 样本 核 答 阵 对 流 
数据 中 的 点 进行 划分 。 同 时 利用 衷 退 聚 类 机 制 ， 实 时 更 新 样本 核 矩 阵 。 实 验 结果 表明 ， 相 比 于 传统 聚 类 算法 ， 该 算法 
实现 了 更 低 的 时 间 复杂 度 ， 同 时 实时 到 类 ， 得 到 较为 理想 的 聚 类 结果 
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Stream data clustering algorithm based on differential sampling 


Qiu Yunfei, Sun Mengrani 
(College of Software Liaoning Technical University, HuLudao Liaoning 125105, China) 


Abstract: Concerning the problems of high time complexity, large storage space requirements and low accuracy when traditional 
clustering algorithm cluster stream data, this paper proposed a kind of stream data clustering algorithm based on differential 
sampling. First, it used the differential sampling method sampled stream data, and used sample points to construct kernel matrix. 
Then it used kernel fuzzy C-means clustering algorithm clustered the data points in the kernel matrix, obtained a marked sample 
kernel matrix. Finally, using the marked kernel matrix divided the stream data. Meanwhile, this paper adopted the fading cluster 
mechanism to update kernel matrix in real time. Experimental results show that compared with the traditional clustering 
algorithm, the proposed algorithm achieves lower time complexity, real-time clustering at the same time, get the ideal clustering 
result. 
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对 应 的 网 格 之 中 ， 根 据 密度 在 网 格 空 间 中 进行 聚 类 。 该 算法 利 
用 数据 本 身 的 特性 对 流 数据 进行 聚 类 ， 但 是 由 于 流 数据 数量 的 
近年 来 ， 对 流 数 据 进 行 聚 类 分 析 成 为 数据 挖掘 领域 中 的 热 无 限 性 ， 导 致 该 算法 的 时 间 复 杂 度 较 高 。 文 献 [4] 提 出 一 种 基于 

点 问题 。 但 由 于 流 数 据 到 达 的 实时 性 、 数 据 结 构 的 不 稳定 性 、 采样 的 流 聚 类 算法 (approximate kernel fuzzy C-means,AKFCM ) ， 
数据 量 的 无 限 性 ， 利 用 传统 聚 类 算法 很 难 进行 有 效 贡 nt 为 对 流 数 据 进行 随机 采样 并 聚 类 。 该 算法 大 大 降低 了 时 间 复 杂 度 ， 
了 解决 以 上 问题 ，Aggarwal 等 人 中 提 出 一 种 流 聚 类 算 但 准确 率 较 低 。 与 此 同时 ， 也 出 现 了 针对 不 同 需 求 的 流 聚 类 算 
(CluStream 算法 ) 。 该 ee sp 法 E9。 例 如 文献 [53] 针 对 数据 流 中 流速 的 变化 , 在 基于 在 线 和 离 
高 质量 的 簇 提 升 流 数据 聚 类 的 准确 性 及 效率 ， 但 对 高 维 数据 处 ” 线 聚 类 框架 的 基础 上 提出 了 基于 动态 滑动 窗口 的 流 聚 类 算法 
理 效 率 不 高 。 文 献 [2] 提 出 一 种 自 适 应 非 线性 流 聚 类 算法 ， 应 用 DSC， 使 得 滑动 窗口 大 小 可 随 数据 流 流速 动态 改变 ， 同 时 设 定 
核 异 常 检测 方法 按照 时 间 的 局 部 性 将 流 数据 分 成 若干 部 分 ， 了 窗口 改变 闵 值 避免 窗口 的 频繁 变化 。 该 算法 对 流 数据 的 处 理 
对 每 一 部 分 进行 聚 类 ， 自 适应 选取 具有 代表 性 的 部 分 作为 初始 效率 较 高 ,但 未 考虑 到 流 数 据 本 身 数据 信息 对 聚 类 结果 的 影响 ， 
的 类 对 流 数 据 中 的 其 他 点 进行 聚 类 。 该 算法 虽然 减 小 了 时 间 复 因此 聚 类 准确 度 并 不 高 。 文 献 [6] 对 经 典 流 数据 聚 类 算法 
杂 度 及 对 存储 空间 的 利用 ， 但 没有 考虑 数据 点 本 身 的 数据 信息 CluStream 与 经 典 密度 聚 类 算法 DBSCANI7 进 行 总 结 与 改进 ， 
在 流 数据 中 的 影响 程度 ， 因 此 聚 类 效果 并 不 理想 。 文 献 [3] 提 出 提出 了 适用 于 入 侵 检 测 环境 的 流 数 据 聚 类 算法 。 该 算法 能 够 实 
种 基于 密度 与 网 格 的 流 聚 类 算法 ， 将 数据 映射 到 网 格 空间 中 现 对 流 数据 的 实时 聚 类 ， 但 不 能 准确 反映 新 流入 数据 的 特征 
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因此 聚 类 性 能 较 人 
针对 以 上 问题 ， 本 文 提 出 一 种 基于 差异 性 采样 的 流 数据 聚 
类 算法 。 首 先 采 用 统计 杠杆 分 数 (statistical leverage scores ) [8 对 
流 数 据 中 的 点 进行 采样 ， 其 次 用 样本 点 构造 核 矩阵 ， 然 后 应 用 
核 模糊 C 均值 聚 类 算法 对 样本 核 窍 阵 中 的 点 进行 聚 类 得 到 一 个 
带 有 类 别 标记 的 核算 阵 ， 然 后 用 带 标记 的 样本 核算 阵 对 流 数据 
中 的 点 进行 实时 划分 ， 最 后 利用 衰退 聚 类 机 制 (fading cluster 
mechanism) 中 删除 不 再 具有 代表 性 的 类 别 ， 实 时 更 新 数据 模型 。 


1 ”基础 理论 


1.1 模糊 C 均值 聚 类 算法 

模糊 聚 类 算法 是 一 种 根据 隶属 度 值 最 大 原则 来 划分 类 别 的 
数学 方法 ， 每 个 样本 点 以 不 同 隶 属 度 值 同时 属于 多 个 类 ， 最 终 
将 该 点 聚 到 对 应 隶属 度 值 最 大 的 类 中 ， 使 得 被 聚 到 同一 类 中 的 
数据 对 象 之 间 相似 度 最 大 ， 不 同类 数据 对 象 之 间 相似 度 最 小 。 
模糊 C 均值 聚 类 算法 (fuzzy C-means,FCM) 中 步 又 为 : 首先 随 
机 初始 化 每 个 数据 与 各 个 类 的 隶属 度 得 到 初始 隶属 度 和 矩阵 ， 然 
后 根据 隶属 度 计算 每 一 个 类 的 聚 类 中 心 , 接着 更 新 隶属 度 矩 阵 。 
如 此 迭代 ， 直 到 各 个 类 的 聚 类 中 心 不 再 发 生变 化 或 者 隶属 度 值 
变化 的 绝对 值 低 于 设 定 阔 值 ， 算 法 结束 。 模 糊 C 均值 聚 类 算法 
的 目标 函数 为 


未 


CN 2 
Vren = 2 2 -vl (D 
j=l i=l 
C 
Du =1,u; e[0,1] CO) 
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其 中 : 给 定数 据 集 和 一人 


i 


局 } ; C 为 聚 类 个 数 , N 为 


样本 个 数 ; v=[w |,, 为 隶属 度 矩阵 ;好 为 数据 点 ，x 隶属 于 


第 ; 类 的 隶属 度 值 ，v 为 第 ) 类 的 聚 类 中 心 ，m 为 加 权 指 数 ， 
也 称 平滑 因子 ， 控 制 模式 在 模糊 类 间 的 分 享 程 度 ， 关 于 它 的 最 
佳 取 值 尚未 有 理论 指导 ， 大 多 数 情 况 下 取 值 为 2。 令 J 对 v， 
和 三 求 偏 导 ， 并 令 偏 导 为 0， 得 到 聚 类 中 心 和 隶属 度 值 的 更 新 
函数 : 


vj= 2 (3) 


(E -wo 
人 二 本 
j > -»l) 2/(m-!) 


1.2 ” 核 模糊 C 均值 聚 类 算法 

在 原始 空间 下 ,数据 点 之 间 并 非 都 是 线性 可 分 的 , 尤其 对 于 
流 数据 来 说 ， 数 据 的 形式 多 样 ， 即 使 应 用 较 优 的 聚 类 算法 ， 也 
难以 得 到 较 好 的 聚 类 效果 。 基 于 此 ， 可 利用 核 方 法 来 解决 这 一 
问题 ， 基 于 核 方 法 的 聚 类 算法 0 对 数据 的 处 理 更 加 灵活 ， 同 
时 便于 操作 。 核 方法 的 核心 思想 是 : 首先 通过 某 种 非 线性 映射 


(4) 


4 ,将 原始 数据 嵌入 到 高 维特 征 空 间 , 使 得 原始 空间 下 不 能 线性 
可 分 的 点 变 得 线性 可 分 ; 然后 利用 通用 的 线性 学 习 器 在 这 个 高 
维特 征 空间 中 对 数据 进行 分 析 和 处 理 。 定 义 非 线 性 映射 
fj:X 一 卫 , 将 低 维 输入 空间 阅 映 射 到 高 维特 征 空 间 严 。 核 模糊 
C 均值 聚 类 算法 (kernel fuzzy C-means,KFCM ) 的 目标 函数 为 


ee =25 Du (k(x,) (5) 


j=1 i=1 


[Mn 


u; =1,u; e[0,1] (6) 


K(x,v)) 为 核 函数 , 定义 了 特征 空间 中 两 点 之 间 的 欧 氏 离 。 
令 J 对 v, 和 心 求 偏 导 ， 并 令 偏 导 为 0， 得 到 聚 类 中 心 和 隶 
属 度 值 的 更 新 函数 ; 


一 O) 


1 Ke 
(xs 站)) 


vl —k (%, Ve a 


8=1 
其 中 : k(x%,v)) 因 选 取 的 核 函数 而 异 。 本 文采 用 高 斯 径 向 基 核 函 
数 (Gaussian radial bases kernels,GRBEF ) 03], 形 式 如 下 : 


最 
k (xv))=exp lel (9) 


其 中 :，c 为 函数 的 宽度 参数 ， 控 制 函数 的 径 向 作用 范围。 
1.3 ”统计 杠杆 分 数 

统计 杠杆 分 数 是 用 来 衡量 行 向 量 与 矩阵 的 一 致 性 或 相关 性 
的 标准 ， 从 而 判断 该 向 量 与 矩阵 的 相似 性 。 统 计 杠 杆 值 越 高 ， 
则 该 行 向 量 与 矩阵 中 点 的 差异 性 越 大 ， 相 关 性 越 小 。 统 计 杠杆 
分 数 的 应 用 较为 广泛 ， 在 异常 值 检测 领域 09， 用 来 判断 外 来 数 
据 是 否 为 异常 数据 ， 在 随机 矩阵 分 析 算 法 5 领域 ， 用 来 分 析 数 
据 与 随机 矩阵 的 相关 性 ， 在 矩阵 一 致 性 研究 领域 ， 如 矩阵 填充 
ng， 用 于 对 矩阵 缺失 部 分 进行 估计 。 

统计 杠杆 分 数 计算 如 下 : 

设 抱 阵 4enxd， 40 1x4 为 矩阵 二 的 第 之 行 ， 矩 阵 4 
的 第 i 行 的 统计 杠杆 分 数 7 为 


1=|4°F ,ie{l,2,...,n) (10) 


1.4 衰退 聚 类 机 制 

由 于 流 数据 的 动态 性 ， 随 着 新 数据 点 的 到 达 ， 数 据 模 型 也 
会 发 生变 化 。 本 文采 用 衰退 聚 类 机 制 来 动态 更 新 样本 核 矩 阵 中 
的 数据 。 设 每 一 个 类 j e[1,C] ,都 被 赋予 一 个 变量 值 1, ， 代 表 被 
划 入 到 第 /7 类 中 的 最 后 一 个 点 的 时 刻 ,1 为 新 的 数据 点 x 到 达 的 
时 间 ， 在 每 一 个 数据 点 即将 被 划分 到 第 j 类 时 ， 本 文 算法 采用 
一 个 单调 函数 广 (1) 来 计算 该 类 的 近 因 值 b7 ( 近 因 值 的 概念 来 
源 于 心理 学 的 近 因 效 应 ab9， 是 指 当 人 们 识 记 一 系列 事物 时 对 未 
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尾部 分 项 目的 记忆 效果 优 于 中 间 部 分 项 


大 ， 越 能 代表 最 新 点 的 数 所 
近 因 函数 表示 如 下 : 


f,(7) = exp(—7(1 -1)) 


77 三 exp(—yr) ,TE {1,2,3,4,5} 
其 中 : y 代表 一 个 类 的 衰退 率 08; 


程度 越 小 。 


目的 现象 ) ， 近 因 值 越 
虽 特 征 ， 受 到 之 前 数据 点 特征 影响 的 


(11) 


(12) 


参数 ze{1,2,3,4,5} 。 本 文 算 


蔡 该 类 。 


法 将 近 因 值 小 于 一 定 阐 值 的 类 实时 删除 ， 同 时 用 


新 到 达 的 点 代 


2 ”基于 差异 性 采样 的 流 数 据 聚 类 算法 
本 文 算法 基于 流 数 据 的 特性 , 采用 核 模糊 C 均值 聚 类 算法 


为 基础 算法 ， 利 用 
的 流入 ， 利 用 衰退 聚 
为 采样 、 聚 类 和 更 新 三 


数据 进行 采样 ， 随 着 流 数据 
必 据 模型 。 该 算法 主要 分 
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差异 性 采样 
本 文 算法 在 对 流 数 据 进 4 于 流 数 据 的 无 限 性 
Ne 羊 ， 由 于 聚 类 的 类 别 是 
在 核 矩阵 中 产生 ， 所 以 应 使 核 矩 阵 中 的 采样 数据 之 间 的 差异 较 
大 ， 从 而 圳 括 更 多 的 数据 信息 ， 才 更 能 代表 流 数据 中 数据 的 的 
分 布 情 况 。 统 计 杠 杆 数据 点 与 原核 矩阵 中 数据 
点 的 平均 水 平 相差 越 大 , 同时 妆 阵 中 的 影响 程度 越 高 ， 
因此 需要 采集 统计 杠 村 昌 以 保证 样本 核 矩阵 中 

数据 点 的 差异 性 。 


设 样本 集 S$， 样本 中 数 
自 定义 参数 ，K, ,代表 (1-1) 时 刻 的 核 矩 


带 入 高 斯 核 函数 公 
其 划 入 到 样本 


中 得 


式 可 得 ) 。 当 数 扩 


届 点 的 个 数 为 s(xr<s<R), 和 RR 为 
车 , K =1( 将 (Xi1,X1) 
居 点 工 在 上 时 刻 到 达 时 , 先 将 
上 KR ， 对 其 进行 奇异 值 分 解 0220， 采 用 奇 


异 值 分 解 的 原因 是 ， 在 采集 样本 点 时 ， 需 要 计算 核 矩 阵 的 每 个 


行 向 量 的 统计 杠 村 


的 重要 手段 ， 


数据 的 分 布 情况 。 因 此 利用 
, 每 次 只 需 计算 这 C 个 向 量 
杆 值 即 可 。 以 下 为 分 解 过 程 
K,=V. YeVe 
2c = diag(N,…,) 
VW = 
天 的 最 大 的 C 个 特征 值 组 成 的 对 
] 量 组 成 的 矩阵 。 利用 Vy. 
计 息 来 挑选 同样 或 


性 的 C 个 向 量 


为 请 类 个 


来 计算 统计 杠 相 


F 值 ， 计算 量 大 ， 奇异 


数 ， 允 是 


特征 值 越 大 ， 说 日 
差 越 大 ， 功 率 越 大 ， 包 含 的 信 


值 分 解 是 提取 和 矩阵 特征 


息 量 


ay 


角 和 矩 Ee (WV. ) .是 


对 应 的 C 个 特征 


F 分 数 ， 


者 更 加 有 用 的 信 


目的 是 利用 


息 ， 增 加 了 筛选 的 准 


E 阵 在 对 应 的 特征 向 量 上 的 方 
量 也 越 多 ， 同 时 也 越 能 够 代表 
奇异 值 分 解 得 到 核 矩 阵 中 具有 代表 
新 到 达 点 的 统计 杠 


(13) 
44) 
(15) 


8 率 ， 提 高 了 核 矩 阵 的 整 


体 差 异 度 。 V0 为 V. 的 第 i 行 , 更 新 核算 阵 (h 为 自 定义 参数 ): 


中 9 | 
J Kk(%,N) 


(16) 


p>h 


p, 为 将 数据 点 x 划 入 到 S 中 的 可 能 性 ， 定 义 为 (1 -1) 时刻 
与 时刻 矩阵 双 的 统计 杠杆 分 数 的 比值 ， 定 义 如 下 : 


= 写 0 (17) 


i=l 2(7) 


统计 杠杆 值 越 大 ， 说 明 新 到 达 的 点 与 原 矩 阵 中 的 点 的 差异 
性 越 大 ， 分母 越 大 ，p, 越 小 ， 当 p, 小 于 阔 值 h 时 ， 则 将 t 时 刻 
到 达 的 点 x 划 入 到 样本 核 矩 阵 中 。 其 中 浆 值 Ps(0.1]， 且 大 的 
取 值 越 接 近 于 0, 说 明 新 数据 点 的 到 达 使 得 统计 杠杆 分 数 越 大 ， 
表明 数据 点 与 原核 矩阵 中 数据 的 差异 性 越 大 ， 从 而 使 得 核 矩 阵 
中 的 点 的 分 布 范围 变 大 ， 数 据 包 含 的 信息 越 丰富 ， 可 以 更 有 效 
的 对 流 数据 中 的 点 进行 聚 类 ; 但 h 的 值 越 接近 于 0， 会 使 得 满 
足 条 件 的 数据 点 变 少 从 而 需要 不 断 筛选 导致 较 大 的 计算 复杂 度 ， 
而 且 所 选 实验 数据 集 的 大 小 也 会 影响 h 的 选取 ， 本 文 算法 在 不 
同 数据 集 上 选取 了 不 同 的 h 值 ， 详 见 第 3 章 。 本 文 算法 的 采样 
方法 ,能 够 减 小 时 间 复 杂 度 和 对 存储 空间 的 占用 ,又 可 以 采集 到 
相对 能 代表 所 有 流 数据 分 布 的 点 。 
2.2 聚 类 

利用 核 模糊 C 均值 聚 类 算法 将 核 矩 阵 及 中 的 点 聚 成 C 个 
类 ， 本 文 算法 目标 函数 如 下 : 


J - 立 y 好 (=-K(z)) (18) 


全 对 YY 和 uj 求 仿 让， 令 偏 导 为 0， 得 寻 到 聚 类 中 心 和 
隶属 度 值 的 更 新 函数 : 


Dl Vj)x 
一 (19) 
Zk(x v)) 
(ml) 
(1-x(s,»,)) : 
Wi = 本 (20) 
Ss) 


体 聚 类 步骤 如 下 : 
a) 给 定 聚 类 类 别 数 C， 设 定 迭 代 收 敛 阔 值 ， 初 始 化 各 个 聚 
类 中 心 以 及 隶属 度 和 矩阵 。 
b) 用 当前 的 聚 类 中 心 根 据 式 (20〉 更 新 隶属 度 和 矩阵 ， 用 当 
前 隶属 度 矩 阵 根 据 式 〈19) 更 新 各 个 聚 类 中 心 。 
c) 循 环 pb)， 直 到 各 个 类 的 聚 类 中 心 不 再 发 生变 化 或 者 隶属 
度 和 矩阵 的 变化 值 小 于 一 定 的 阔 值 ， 终 止 迭 代 。 
2.3 ”动态 更 新 数据 模型 
在 核 空间 下 将 样本 集 S 中 的 点 聚 成 C 个 类 后 , 将 C 个 类 了 映 
射 到 原 空 OS 
距离 它 最 近 的 类 中 。 根 据 式 (21) 计算 距离 1 时刻 到 达 的 点 x 
eg 


QD) 


je[LC] 


201804.01439v1 
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当 得 到 类 j 时 ， 计 算 第 
自 定义 阔 值 7 《代表 一 个 类 持续 活跃 的 生命 周 


以 及 类 中 的 点 从 5 中 删除 ， 并 月 


类 中 的 条 件 为 


j 类 的 近 


x 代 蔡 该 类 并 


py 2 
i=argminh, -| 


2.4 ”本 文 算法 过 程 概述 


本 文 算法 的 具体 步 又 
如 图 1 和 2 所 示 。 

a) 输 入 数据 集 多 
数 : k(x,v,)， 样 本 集 
h。 


行 聚 类 ， 得 到 


b) 初 始 化 局 


(1)>7 


因 值 。 若 近 因 


值 小 于 等 于 


期 ) ， 则 将 该 类 
作为 该 类 的 初始 


点 ; 若 近 因 值 大 于 7， 则 将 * 划分 到 该 类 中 。 因 此 将 x 划分 到 


(22) 


述 如 下 ， 算 法 过 程 


图 示 和 算法 流程 


; Ki=1, Ve =1, .=k(n,Nh); 初 


v7 


co) 采样 : 利 | 


] 差 异性 采样 方法 进行 采样 ， 并 利用 样本 集中 的 
数据 构造 核 矩 阵 。 
中 聚 类 : 采用 核 模糊 C 均值 聚 类 算法 对 核 矩 阵 中 的 数据 进 


个 带 有 类 别 标记 的 核 矩 阵 。 


= {zo, 力 ,…,,…,Xw}， 归 类 个 数 : C， 核 函 
中 点 的 个 数 的 最 大 最 小 值 : R、t, 参 数 : 71、 


台 聚 类 中 心 。 


6) 划分 以 及 动态 更 新 数据 模型 : 利用 步骤 4 得 到 的 标记 核 


v 


对 数据 进行 划分 


图 2 


法 流程 


和 矩阵 对 流 数 据 进行 划分 ， 同 时 不 断 更 新 隶属 度 矩 阵 U。 
全 输出 隶属 度 矩 阵 ， 聚 类 结果 。 
流 数 据 
加 
样 
v 六 有 v 
样本 核 矩 阵 “| 一 僵 ”| 带 标记 样本 核 矩阵 
更 
新 
图 1 算法 过 程 图 示 
开始 
>| 输入 流 数据 
1 
参数 初始 化 
1 
3 
Y 
y 
更 新 数据 模型 ”|e | 在 样本 核 甜 阵 中 聚 类 
~ f(D>n 


2.5 ”实时 动态 处 理 概述 


a) 按 条 读 取 数 据 。 


为 了 验证 本 文 算法 的 准确 率 ， 本 文采 用 


已 经 分 类 的 数据 集 进行 实验 ， 将 数 提 


行 读 取 数据 。 
b) 对 数据 进行 采样 


函数 计算 每 条 数据 的 处 理 时 间 1 ， 
初始 处 理 时 间 。 假 设 第 一 


的 处 理 时间 为 ,第 三 


昌 集 以 矩阵 的 形式 存 入 ， 按 


分 析 ， 利 用 MATLAB 中 的 功能 函数 jic 


以 t+4 作为 下 一 条 数据 的 
条 数据 的 处 理 时 间 为 1 ， 第 二 条 数据 
条 数据 的 处 理 时 


已 一 允 


数据 的 初始 处 理 时 间 为 5 + 六 ， 第 三 条 数据 的 初始 处 理 时 间 为 


于 不 同 数据 集 的 种 类 和 属性 的 差 


异 ， 因 此 本 文 算法 的 动态 更 新 过 程 没 有 固定 的 更 新 频率 和 时 间 


窗口 ) 。 
9 对 样本 核 矩阵 进 


被 划 入 到 相应 的 类 ; 中 ， 蕴 


行动 态 更 新 ， 每 当 一 条 数据 x 在 1 时 
要 利用 上 和 之 前 最 后 一 个 划 入 到 |i 


类 中 的 数据 到 达 的 时 刻 + 进行 近 


代表 性 的 类 。 
2.6 ”时间 复杂 度 分 析 
利 


O(N’) .在 本 文 算法 中 ， 


因 值 计算 ， 实 时 


过 


Dt 丈 


| 除 不 再 


传统 核 模糊 C 均值 聚 类 算法 对 流 数据 进行 聚 类 ,在 构 
造 核 矩 阵 时 ， 和 矩阵 规模 为 VxN ， 因 


此 算法 的 时 间 复 杂 度 为 


样本 核 矩 阵 中 的 数据 量 为 Bs 且 SN; 


所 以 本 文 算法 的 时 间 复杂 度 为 O(Ns) ， 本 文 算法 的 时 间 复杂 度 


远 远 低 于 传统 核 模糊 C 均值 聚 类 算法 。 
每 行 的 统计 杠杆 分 数 ， 时 间 复 杂 度 为 
O(s)， 在 采用 奇异 值 分 解 后 , 只 需 利用 
计算 ， 且 C <s， 时 间 复 杂 度 为 o(C)， 进 


时 ， 需 要 计算 核 和 矩阵 


的 时 间 复 杂 度 。 
3 ”实验 分 析 


同时 ， 在 进行 采样 分 析 


C 个 特征 向 量 的 值 进 行 


本 实验 的 实现 平台 为 MATLAB2014a。 为 了 验证 本 文 算法 


步 降低 了 本 文 算法 


的 聚 类 效果 ， 与 AKFCM/KFCM 和 FCM 算法 分 别 进行 实验 对 


比 ， 通 过 AKFCM 算法 对 流 数 


到 类 时 采 


的 随机 采样 法 与 本 


文 差异 性 采样 法 进行 对 比 ， 验 证 本 文 算法 的 聚 类 效果 ;通过 与 


非 采样 的 KFCM 算法 对 比 , 验 订 


类 效果 ; 


本 文选 


E 本 文 算法 
通过 与 FCM 算法 进行 对 比 ， 验 证 本 文 算法 的 聚 类 效 
果 优 于 传统 聚 类 算法 。 由 于 KFCM 算法 是 用 数据 集中 所 有 数据 
构造 核 矩 阵 , 因此 选取 的 数据 集 不 宜 过 大 ,避免 存储 空间 不 足 。 


] Movement-Libras 整个 数据 集 , MFCC 数据 集中 20 类 


T 


的 时 间 复 杂 度 以 及 聚 


中 的 部 分 数据 ，CIFAR-10 数据 集中 20 类 中 的 部 分 数据 , Forest 


Cover Type 数据 集中 7 


实验 数据 集 。 四 个 数据 集 的 长 度 依次 变 大 ， 
本 文 算 法 的 聚 类 效果 不 会 受到 影响 ， 证 
明 本 文 算法 对 于 数据 量 大 的 流 数据 更 具有 优势 。 本 文采 
准确 率 〈A)P3 及 误差 平方 和 
侍 。 为 减少 偶然 误差 , 每 次 实验 


着 流 数据 规模 的 增加 


化 互信 息 (NMI) PDU、 


(SSE) 作为 聚 类 效果 的 评价 标 ; 


进行 50 次 取 平均 值 。 


类 中 的 部 分 数 ] 


居 来 模拟 流 数 据 。 表 1 为 
的 是 为 了 验证 随 


j 归 


运行 时 间 、 


录用 稿 
表 1 实验 数据 集 
数据 集 属性 数 类 别 数 数据 个 数 
Movement-Libras 90 15 360 
MFCC 22 20 3121 
CIFAR-10 3072 20 10000 
Forest Cover Type 4 7 20000 


3.1 聚 类 性 能 指标 分 析 


Es 


日 


丰 
A 的 影响 。Movement-Libras 数 志 
昌 集 的 采样 村 
本 大 小 为 2 000，Forest Cover Type 数 ] 
000。 由 表 2 可 知 ， 对 了 
呈现 不 断 增 大 的 趋势 , 因此 从 运行 


MFCC 数 寺 
相 


4 


间 


着 z 值 的 增 大 ,每 个 数据 集 NMI 值 降 


iv 会 作 其 
V 口 人 |. 
羊 的 流 数据 聚 类 算法 


表 3 可 知 ， 当 天 1 时 ， 四 个 数 扩 


mm 


集 的 采样 
本 大 小 为 
F 每 个 数据 集 ， 随 着 + 的 增 大 ， 运 行 时 
的 值 设 为 1 较 好 ; 
值 都 为 最 大 ， 且 随 


表 4 可 以 看 


之 间 的 关系 。 表 2~4 分 别 为 t+ 的 取 值 对 运行 时 间 、NMI 以 及 
居 集 的 采样 样本 大 小 为 100， 
EF 本 大 小 为 500，CIFAR-10 数 和 


归 一 化 互信 息 (NMI) 在 聚 类 中 ， 常 被 用 来 度量 某 聚 类 算 当天 1 时 ， 四 个 数据 集 的 A 值 都 是 最 大 的 。 因 此 实验 中 将 r 值 
法 的 聚 类 结果 与 数据 实际 分 类 的 相近 程度 , 其 值 的 范围 为 [0,1]， 设 为 1。 
NMI 值 越 高 ， 说 明 该 聚 类 算法 与 数据 的 实际 分 类 起 相近， 效果 表 2 z 的 不 同 取 值 下 的 运行 
越 好 ， 反 之 效果 越 差 。 计 算 公式 为 
数据 集 
NMI = (23) ! 2 4 
人 Movement Libras 338.21 355.48 375.42 
H(A)= ->, P(a)logP (a) (24) MFCC 652.73 684.63 698.70 
“ CIFAR-10 8975.6 8973.2 9432.9 
H(B)= ->, P,(b)log P,(b) (25) Forest Cover Type 2981.7 3025.6 3214.8 
b 
H(A,B)=->, Ps(a,b)log Ps(a,b) (26) 表 3 = 的 不 同 取 值 下 的 NMI 值 
ab 
其 中 : (4) 表示 4 向 量 的 信息 炉 ，(B) 表示 B 向 量 的 信息 数据 集 
炳 及 (4,8) 表示 4 和 B 的 联合 信息 业 中 ，a 、b 分 别 表示 4 Movement Libras 0.8624 0.8432 0.8063 
和 5B 的 概率 ; P(a) 、 P,(pb) 分 别 表 示 4 和 B 的 概率 分 布 中; eee ee 0 
Ps(4.b) 表示 4 和 B 的 联合 概率 分 布 "。 CIFAR-10 0.8793 0.8562 0.8043 
准确 率 (A) 是 评价 聚 类 结果 性 能 最 常用 的 准则 , 其 计算 公 Forest Cover Type 0.9025 0.8925 0.8293 
式 如 下 : 
> 表 4 的 不 同 取 值 下 的 A 值 
并 三 于 C7) 
NN 数据 集 7 
其 中 : N 表示 实验 样本 数据 总 数 ; C 表示 类 的 数目 ; 4 表示 时 Movement Libras 0.9073 0.8825 0.8190 
类 结果 中 的 第 j 个 聚 类 和 实际 聚 类 相 一 致 的 样本 个 数 ,a, 越 大 ， i oe asd 
表示 正确 分 类 的 样本 数 越 多 ; 4 越 大 , 则 聚 类 结果 的 准 率 越 高 ， rR ado i doy a 
聚 类 质量 越 好 。 Forest Cover Type 0.9130 0.8799 0.8432 
误差 平方 和 (SSE) 是 用 来 评价 类 间 差 异性 的 函数 ,公式 如 
RR 2) 参数 ;的 取 值 分 析 
i #9 | os) 参数 及 e (0,1]，h 的 取 值 越 小 , 说 明 新 数据 点 的 到 达 使 得 统 
全 0 、 人 
户 ! 1 计 杠 杆 分 数 越 大 ， 表 明 数 据点 与 核 矩 虽 点 的 差异 性 越 


其 中 : C 表示 类 的 数目 ，4 表示 第 ) 类 中 样本 的 个 数 ，x, 表示 
第 ; 类 中 的 第 i 个 数据 ，m, 表示 第 j 类 的 聚 类 中 心 ，SSE 的 什 
越 小 ， 说 明 数 据 都 被 聚 到 相对 较 近 的 类 中 ， 聚 类 效果 越 好 
3.2 参数 取 值 分 析 
1) 参数 的 取 值 分 析 

7 =exp 77) ,Te{1,2,3,4,5} 可 知 , t 越 大 , 越 小 , 反之 
1 越 大 。 当 近 因 值 大 于 了 时， 将 数据 点 划 入 到 相应 的 类 中 ， 为 
了 严格 筛选 核 矩 阵 中 的 数据 点 ， 应 尽量 使 7 的 值 较 大 ， 但 同时 
又 会 增加 算法 运行 的 时 间 ， 因 此 需要 权衡 时 间 复 杂 度 与 聚 类 效 


一 


Ba 


大 ， 从 而 使 得 核 和 
越 丰 富 ， 但 户 的 值 越 小 ， 会 使 得 满 
要 不 断 筛 选 造成 较 大 的 时 间 复 杂 度 ， 因 上 出 


外 


E 阵 中 的 点 的 分 布 范围 


件 的 数据 点 变 少 从 而 


站 ， 通 过 实验 验 订 


确定 有 的 值 。 由 表 5，NMI 和 


行 时 间 也 变 小 ， 


自 


E， 权 衡 时 间 复 


民 


又 
杂 


再 


A 的 


且 变 化 值 较 小 ， 又 由 


在 及 =0.1.0.2.0.3 国 


规模 较 小 ， 运 行 时 间 较 短 ， 基 


n=0.1。 由 表 6,，NMI 和 A 的 值 在 =0.4 时 降低 
的 值 相 差 较 小 ; 


六 维 六 


不 同 也 
度 与 聚 类 效果 之 间 的 关系 来 
h 的 增 大 而 变 小 ， 运 
于 Movement Libras 数据 


采用 聚 类 结果 最 准 


百 
田 
a 
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7 站 
录用 入 郊 云 飞 ， 等 ， 基 于 时 异性 困 料 轩 读 卜 虹 琳 关 钙 半 
运行 时 间 明 显 降低 ， 并且 之 后 趋 于 平缓 ， 因 此 在 MFCC 数据 集 
上 , 太 值 设 为 0.3。 由 表 7, 当 NMI 最 大 时 站 =04， 且 之 后 NMI 09 站 
ss 本 vs 米 米 - 
值 逐 渐 降低 ， 且 降幅 较 大 ， 运 行 时间 上 呈现 逐渐 减 小 的 趋势 0 条 
且 当 有 =0.1.0.2.0.3 时 ， 运行 时 间 很 大 ，h =04 时 降幅 较 大 ， 且 _ : 认 训 上 忆 
、 Se 三 站 轩 
之 后 趋 于 平缓 , 同时 有 =0.4 时 的 A 值 与 最 大 值 相 差不多 , 因此 研 0 S 
在 CIFAR-10 数据 集 上 ， 将 有 设 为 0.4。 由 表 8， 运 行 时 间 在 06 菏 科 三 
仓 AKFCM 
-0.2 时 降低 幅度 较 大 且 之 后 趋 于 平缓 ， 同 时 NMI 和 A 的 值 EN 
逐渐 降低 , 且 在 7) -02 时 ,NMI 和 A 值 相 对 较 大 , 因此 在 Forest 030 30 4 50 70 80 90 100 
洲 任 1 
Cover Type 数据 集 上 ， 将 有 设 为 0.2。 
图 3 Movement_Libras 数据 集 对 比 实验 NMI 值 
表 5 Movement Libras 数据 集 h 取 值 分 析 
h 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 
ir 
NMI 0.8624 0.8502 0.8594 0.8006 0.8399 0.8458 0.8303 0.8242 0.8112 
A 0.9073 0.8992 0.8801 0.8688 0.8597 0.8525 0.8457 0.8391 0.8361 | 米 * 米 - 人 
运行 时 间 /ms 338.21 336.12 331.25 321.92 318.60 309.19 311.32 299.30 290.56 a 
[> 人 从 区 
尼 0 办 e a 台 全 
表 6 MEFCC 数据 集 h 取 值 分 析 9 
0.6 仓 AKFCM 
h 01 02 03 04 05 06 07 08 09 os 个人 
NMI 0.9032 0.8982 0.8943 0.7206 0.7299 0.6958 0.6803 0.6542 0.6212 T00 150 200 250 和 做 350 400 450 500 
A 0.9198 0.9183 0.9174 0.8233 0.7980 0.7815 0.7570 0.7499 0.7161 4 MFCC 数据 集 对 比 实验 NMI 值 
运行 时 间 /ms 1176.9 976.61 652.73 654.90 643.52 662.15 619.04 629.18 600.79 
1 来 不 法 | 
表 7 CIFAR-10 数据 集 h 取 值 分 析 Dae 
0.9 如 FCM 
h 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 米 米 米 米 - 
NMI 0.8724 0.8602 0.8794 0.8793 0.7499 0.7158 0.6803 0.6842 0.6512 0.8 
2 > 人 人 记 必 
到 
A 0.8669 0.8640 0.8571 0.8992 0.7350 0.7375 0.7216 0.6991 0.6761 0.5 合 © 
运行 时 间 /ms 14562 12729 12382 8975.6 8709.4 8577.0 8548.1 8762.3 8434.6 0 人 6 wm 避 日 
表 8 Forest Cover Type 数据 集 h 取 值 分 析 0 和 0 600 800 1000 a 1600 1800 2000 
h 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 图 5 CIFAR-10 数据 集 对 比 实验 NMI 值 
OO NMI 0.9094 0.9025 0.9000 0.8606 0.8432 0.8400 0.8207 0.8233 0.8142 
A 0.9109 0.9130 0.8873 0.8988 0.8596 0.8432 0.8592 0.8348 0.8293 
运行 时 间 /ms 4019.2 2981.7 2810.5 2699.0 2579.1 2600.7 2583.6 2401.9 2481.6 
0g. 加 人 x 
幅 Lt 0.8 
3.3” 聚 类 性 能 分 析 = 上 > > 性 B 
1) NMI 值 分 析 S00 
、 本 ee 0.6 
图 3~6 分 别 为 四 种 算法 在 不 同 数据 集 上 的 NMI 值 。 由 于 日 日 日 日 一 下 
| i A 05 入 
本 文 算法 和 AKFCM 算法 需要 进行 采样 ， 样 本 大 小 不 同 ， 认 类 a 区 con 
效果 也 不 同 ,所 以 此 NMI 值 是 变化 的 , 而 KFCM 和 FCM 算法 “而 而 0 ”10 
为 非 采 样 算法 ， 因 此 为 固定 值 。 通 过 分 析 图 3~6 可 知 : a) 本 文 
由 _ 图 6 Forest Cover Type 数据 集 对 比 实验 NMI 值 
算法 的 值 始终 大 于 AKFCM 算法 的 值 ， 且 随 着 数据 规模 的 不 出 
扩大 ， 两 者 差 值 逐渐 增 大 ， 证 明 本 文 算法 采用 的 采样 方法 优 于 2) 其 他 性 能 比较 分 析 
AKFCM 算法 采用 的 随机 采样 法 ; b) 在 四 个 数据 集 上 ， 本 文 算 下 面 主 要 从 运行 时 间 (time/ms ) 、 误 差 平 方 和 和 (SSE) 和 
法 的 NMI 值 都 高 于 KFCM 和 FCM 算法 的 值 , 且 远 远 高 于 FCM 准确 率 (A) 三 个 方面 进行 对 比分 析 。 四 组 数据 集 样本 数量 分 别 


算法 的 值 , 同时 随 着 采样 数目 的 增加 ， 本 文 算法 NMI 值 逐 渐 增 为 100、500、2000、4000。 从 表 9~12 可 以 看 出 ， 在 运行 时 间 
大 ,证 明 在 对 流 数据 进行 聚 类 上 , 本 文 算法 优 于 传统 聚 类 算法 。 (time/ms) 、 误 差 平 方 和 (SSE) 以 及 准确 率 (A) 三 个 方面 本 
文 算法 都 要 优 于 AKFCM 和 KFCM, 且 随 着 数据 集 规 模 的 扩大 ， 


录用 稿 
AKFCM 与 KFCM 算法 的 准确 率 逐 渐 降 低 ， 本 文 提出 的 算法 仍 
然 具备 较 高 的 准确 率 。 证 明 本 文 算法 的 聚 类 效果 优 于 利用 随机 
采样 法 对 流 数 据 进行 聚 类 的 算法 。 虽 然 在 运行 时 间 上 本 文 算法 
要 高 于 FCM 算法 ， 但 在 误差 平方 和 以 及 准确 率 上 本 文 算 法 要 


远 优 于 FCM 算法 。 
表 9 Movement Libras 数据 集运 行 时 间 、SSE 和 A 
核 矩 阵 样本 数 Time/ms SSE A 
本 文 算法 100 338.21 12985 0.9073 
AKFCM 100 349.00 14260 0.7659 
KFCM 全 部 565.75 14098 0.8509 
FCM 0 187.17 15780 0.6134 
表 10 MFCC 数据 集运 行 时 间 、SSE 和 A 
核 矩 阵 样本 数 Time/ms SSE 入 
本 文 算法 500 652.73 151750 0.9174 
AKFCM 500 786.79 186400 0.7284 
KFCM 全 部 1054.3 174208 0.8273 
FCM 0 287.9 245780 0.5934 
表 11 CIFAR-10 数据 集运 行 时 间 、SSE 和 A 
核 矩 阵 样本 数 ”Time/ms SSE A 
本 文 算法 2000 8975.6 484679 0.8992 
AKFCM 2000 9478.1 683679 0.6734 
KFCM 全 部 16445 637863 0.7348 
FCM 0 2480.0 977894 0.4122 
表 12 Forest Cover Type 数据 集运 行 时 间 、SSE 和 A 
核 矩 阵 样本 数 Time/ms SSE A 
本 文 算法 4000 2981.7 64846 0.9130 
AKFCM 4000 3975.6 82370 0.6734 
KFCM 全 部 5776.0 84579 0.7763 
FCM 0 923.0 107894 0.4950 
4 ”结束 语 
本 文 提出 了 一 种 基于 差异 性 采样 的 流 数 据 聚 类 算法 ， 在 采 
样 阶 段 ， 利 用 统计 杠杆 分 数 衡 量 数据 点 与 原样 本 集中 点 的 差异 
性 ， 得 到 一 个 数据 点 之 间 差 异性 较 大 的 样本 核算 阵 ， 使 样本 中 
的 点 更 能 代表 流 数据 中 点 的 分 布 特征 ， 在 数据 更 新 阶段 ， 本 文 
采用 衰退 聚 类 机 制 ， 随 着 新 数据 点 的 到 达 ， 实 时 删除 无 法 反映 
新 数据 点 特征 的 类 ， 并 用 新 数据 点 代替 该 类 ， 以 保证 实时 分 析 
得 到 更 能 代表 所 有 数据 分 布 的 数据 模型 。 实 验 结果 表明 ， 本 文 
算法 在 保证 聚 类 效果 的 前 提 下 ， 大 大 降低 了 对 流 数 据 聚 类 的 时 
间 复 杂 度 ， 同 时 随 着 数据 集 规模 的 扩大 ， 本 文 算法 的 聚 类 效果 
并 未 受到 影响 ， 证 明 本 文 算法 对 于 数据 量 大 的 流 数 据 更 具有 优 


势 。 
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